Transformadors generatius pre-entrenats

GPT
Tipus	API
Característiques tècniques
Plataforma	Multiplataforma
Equip
Desenvolupador(s)	OpenAI
Més informació
Lloc web	www.openai.com

Els transformadors generatius pre-entrenats (amb acrònim anglès GPT) són una família de models de llenguatge generalment entrenats en un gran corpus de dades de text per generar text semblant a l'ésser humà. Es construeixen utilitzant diversos blocs de l'arquitectura del transformador. Es poden ajustar per a diverses tasques de processament del llenguatge natural, com ara la generació de text, la traducció d'idiomes i la classificació de text. El "pre-entrenament" en el seu nom es refereix al procés d'entrenament inicial en un corpus de text gran on el model aprèn a predir la paraula següent en un passatge, la qual cosa proporciona una base sòlida perquè el model funcioni bé en tasques posteriors amb quantitats limitades de dades específiques de la tasca.

L'11 de juny de 2018, OpenAI va publicar un article titulat "Millora de la comprensió del llenguatge mitjançant la formació prèvia generativa", en què van introduir el transformador generatiu prèviament entrenat (GPT).^[1] En aquest punt, els models de PNL neuronals de millor rendiment van emprar principalment l'aprenentatge supervisat a partir de grans quantitats de dades etiquetades manualment. Aquesta dependència de l'aprenentatge supervisat va limitar-ne l'ús en conjunts de dades que no estaven ben anotats, a més de fer que entrenar models extremadament grans resultava prohibitiu i requereix molt de temps; ^[1] ^[2] moltes llengües (com ara el suahili o el crioll haitià) són difícils de traduir i interpretar utilitzant aquests models a causa de la manca de text disponible per a la construcció de corpus.^[2] En canvi, l'enfocament "semisupervisat" de GPT va incloure dues etapes: una etapa generativa no supervisada "pre-entrenament" en la qual es va utilitzar un objectiu de modelització lingüística per establir paràmetres inicials, i una etapa discriminativa supervisada "d'ajustament" en què aquests paràmetres s'han adaptat a una tasca objectiu.^[1]

↑ ^1,0 ^1,1 ^1,2 Radford, Alec. «Improving Language Understanding by Generative Pre-Training» (en anglès) p. 12. OpenAI, 11-06-2018. Arxivat de l'original el 26 gener 2021. [Consulta: 23 gener 2021].
↑ ^2,0 ^2,1 Tsvetkov, Yulia. «Opportunities and Challenges in Working with Low-Resource Languages» (en anglès). Carnegie Mellon University, 22-06-2017. Arxivat de l'original el 31 març 2020. [Consulta: 23 gener 2021].

[gpt1paper-1] 1,0 ^1,1 ^1,2 Radford, Alec. «Improving Language Understanding by Generative Pre-Training» (en anglès) p. 12. OpenAI, 11-06-2018. Arxivat de l'original el 26 gener 2021. [Consulta: 23 gener 2021].

[tsvetkov-2] 2,0 ^2,1 Tsvetkov, Yulia. «Opportunities and Challenges in Working with Low-Resource Languages» (en anglès). Carnegie Mellon University, 22-06-2017. Arxivat de l'original el 31 març 2020. [Consulta: 23 gener 2021].

[1]

[2]